【基礎知識十六】強化學習 一、任務與獎賞 我們執行某個操作a時,僅能得到一個當前的反饋r(可以假設服從某種分布),這個過程抽象出來就是“強化學習”。 強化學習任務通常用馬爾可夫決策過程MDP來描述: 強化學習任務的四 ...